מ׳האָט אַן אָפּטימיזאַציע־פּראָצעס װאָס ציִעט זיך לאַנג און קאָסט טײַער, למשל אַ מאַשין־לערנען סעסיע אָדער אַן א׳/ב׳ פּראָבע פֿאַר אַ װעבזײַט. װאָס טוט מען װען דער אַרױסקום איז נישט גענוג גוט, װי קומט ס׳רובֿ פֿאָר? מ׳קען איבערבײַטן די פּאַראַמעטרן אַ ביסל און פֿרוּװן נאָך אַ מאָל, אָבער װי שױן געזאָגט, איז דער פּראָצעס פּאַמעלעך און קאָסטיק, און מע װיל בעסער אױסגעפֿינען די בעסטע פּאַראַמעטרן.
זיך צונױפֿגעקומען צום אָפּטימום
שװאַרץ־קעסטל אָפּטימיזאַציע איז אַ נײַע שיטה פֿאַר דעם פּראָצעס, אַדורכגעפֿירט זינט 2021 אינעם װיזיר דינסט פֿון גוגל־װאָלקן, אַ טײל פֿון דער רײ דינסטן „װערטעקס“ פֿאַר קינסטלעכער־אונצעליגענץ. אָקרעשט איז װיזיר אױך בנימצא װי אַן אָפֿנקאָדיקן פּראָיעקט .
אין שװאַרץ־קעסטל אָפּטימיזאַציע, פֿירט מען אַן איבערחזרישן שמועס מיטן דינסט, אין װעלכן מ׳שיקט צו צו אים אינפֿאָרצאַציע פֿונעם אַנומלטיקער אָפּטימיזאַציע־סעסיע: די פּאַראַמעטרן װאָס מ׳האָט געניצט, און אױך די מאָס װאָס מ׳האָט דערגרײכט; דער דינסט שיקט צוריק פֿאָרלײגן פֿאַר פּאַראַמעטרן פֿאַר נאָך אױספּרוּװן, און אַזױ װידער און אָבער, ביסלעכװײַז פֿערבעסערנדיק דעם אַרױסקום.
פֿאַר װאָס „שװאַרץ קעסטל“
די צעטײלונג פֿון אַחריותן איז דאָ װיכטיק: דער דינסט נאָר לײגט פֿאָר פּאַראַמעטרן, אױפֿן סמך פֿון די פֿריִערדיקע פּאַראַמעטרן און מאָסן װאָס דער ניצער האָט אַרײַנגעשיקט. דער ניצער, אַקעגן זשע, טראָגט דאָס אַחריות פֿאַר די אָפּטימיזאַציע־פּראָצעסן גופֿא, למשל די טרענירונג־סעסיעס פֿון מאַשין־לערנען, אָדער די א׳/ב׳ פּראָבעס. דער װיזיר־דינסט װײסט גאָרנישט װעגן דער פֿונקציע װאָס ער העלפֿט אָפּטימיזירן זי—אירע גראַדיענטן, אירע קרומען אָראָפּ און אַרױף. װיזיר װײסט נאָר די צוגעשיקטע געגעבענע—די גענניצטע פּאַראַמעטרן און די מאָס. װיזיר װײסט אַפֿילו נישט צי מען טוט מאַשין־לערנען בכלל. דאָס איז די סיבה פֿאַרן נאָמען „שװאַרץ־קעסטל“.
נישט נאָר מאַשין-לערנען
דער געװײנטלעכסטער באַניץ פֿון שװאַרץ־קעסטל אָפּטימיזאַציע איז אין מאַשין־לערנען. װיזיר לײגט פֿאָר היפּער־פּאַראַמעטרן פֿאַר דער קומעדיקער סעסיע, כּדי צו מאַקסימיזירן אַ מאָס, למשל באַלאַנסירטע־אַקוראַטקײט. אָבער װיזיר טױגט פֿאַר נאָך אַ סך פּראָבלעמן. אין א׳/ב׳פּראָבעס, אין װעלכן מע מאַקסימיזירט דעם דױער אין דער װעבזײַט און אױך די הכנסה. אַן אַנדער דוגמא: מ׳קען ניצן װיזיר פֿאַר צושטעלקײט־אָנפֿירונג, אױסקלײַבנדיק יעדן טאָג דעם פּאַסיקן מיש אַרײַנװאַרג כּדי צו מינימיזירן דעם הוצאָות און מאַקסימיזן דאָס כּמות אַרױסװאַרג. אָדער מ׳קען אױסקלײַבן דעם בעסטן באַקרעצעפּט פֿאַר קיכלעך—אַזױ האָט געטאָן די פֿאָרשגרופּע װאָס האָט אױסגעטראַכט װיזיר. זײ האָבן געמאָסטן די הצלחה פֿון יעדער רונדע באַקן לױט דער שאַצונג פֿון פֿאַרזוכערס, און צוגעשיקט צו װיזיר די מאָס און די פּאַראַמעטרן: די קװאַנטיטעטן פֿאַרשײדענע אינגערדיענטן; דערצו, איז דער רעצעט װאָס זײ האָבן באַשטימט געװען אַן אַנדער פּאַראַמעטער. װיזיר האָט געענטפֿערט מיט פֿאָרלײגן פֿאַר נײַע קװאַנטיטעטן. ס׳איז באַשײַמפּערלעך אַז באַקן טױזנטע װאַריאַציעס פֿון קיכלעך איז געװען אוממעגלעך און דערנאָך איז געװען נײטיק מינימיזירן די צאָל רונדעס. מיט דער הילף פֿון װיזיר, זײַנען זײ זיך צונױפֿגעקומען צו אַ באַטעמטן רעצעט.
װי מע באַניצט זיך מיט װיזיר
כּדי זיך צו באַניצן מיט װיזיר, שאַפֿט מען אַ „שטודיע“. אין דער שטודיע פֿירט מען אַדורך אַ רײ „אױספּרוּװן“.
אין יעדן אױספּרוּװ, שיקט מען צו צום װיזיר־דינסט די פּאַראַמעטרן פֿונעם פֿריִערדיקן אױספּרוּװ און די מאָס װאָס איז אַרױסגעקומען. װיזיר שיקט צוריק אַ פּאָר פֿאָרלײגן פֿאַר פּאַראַמעטרן, אַזױ:
מען ניצט בדרך־כּלל די דאָזיקע פּאַראַמעטרן אַדורכצופֿירן די קומעדיקע אױספּרוּװן—דאָס איז דאָך דער צװעק פֿון װיזיר. אָבער מע מוז טאַקע נישט, און מ׳קען אַדורכפֿירן אױספּרוּװן מיט װאָסער נישט איז פּאַראַמעטרן. למשל, אױב ס׳װילט זיך די פּראָדוקט־אָנפֿירערס איבערפּרוּװן אַ נײַע אידעע פֿאַר דער װעבזײַט, קען מען דאָס טאָן און דאָך צושיקן די רעזולטאַטן צו װיזיר, פּונקט װי מע טוט װען מע נעמט אָן די פֿאָרלײגן. איך יעדן פֿאַל, ניצט װיזיר די צוגעשיקטע רעזולטאַטן צו שאַפֿן בעסערע פֿאָרלײגן.
מ׳ קען אױפֿהערן מיט אױספּרוּװן נאָך אַ צאָל איבערחזרונגען װאָס מע האָט באַשטימט אין פֿאָרױס: דער פֿאָרלײג איז אַז די צאָל זאָל זײַן צען־מאָל די צאָל פּאַראַמעטרן, למשל צװאַנציק אױספּרוּװן טאָמער האָט מען צװײ פּאַראַמעטרן. אָדער מ׳קען בעטן בײַ װיזיר פֿאָרצולײגן אַן אױפֿהער װען די מאָס אױף יעדער רעפּעטיציע פֿאַרבעסערט זיך שױן נישט קײן סך, און ממשיך זײַן איז נישט כּדאי.
איך האָב צוגעגרײט אַ פּאָר נאָטיצביכלעך װאָז דעמאָנסטרירן דעם באַניץ פֿון װיזיר. אױב איר װילט זײ אױספּרוּװן, קענט איר (למשל) לאַנצירן אַ װערקשטעל אין װערטעקס (איך לײג פֿאָר דעם לעצטן TensorFlow) און פֿירן זײ.